AI芯片的算力单位有哪些？从FLOPS到MACs的底层逻辑全解

行业新闻

06-24 / 2026 5

买燃油车看马力，买电动车看千瓦。选AI芯片呢？你会发现参数表上列着一串让人眼花缭乱的指标：TOPS、TFLOPS、FP16、INT8、MACs……它们全都跟“算力”有关，但每个单位代表完全不同的含义。选错了指标，你可能花大价钱买了一块“算力爆表”的芯片，却发现跑你的模型还不如一块便宜货。

这篇文章帮你把AI芯片的算力单位全部梳理清楚。读完你会知道：TOPS和FLOPS有什么区别？为什么INT8算力和FP16算力不能直接比较？选购芯片时到底该看哪个数字？

一、基础概念：先搞懂两个“元单位”

FLOPS（Floating Point Operations Per Second）

中文：每秒浮点运算次数。

这是衡量AI芯片最基础的指标之一，表示芯片每秒钟能完成多少次“浮点数运算”（带小数点的数字计算）。FLOPS的前缀决定了数量级：

MFLOPS：百万次/秒（10^6）
GFLOPS：十亿次/秒（10^9）
TFLOPS：万亿次/秒（10^12）
PFLOPS：千万亿次/秒（10^15）
EFLOPS：百亿亿次/秒（10^18）

FLOPS通常用于衡量训练阶段的算力，因为训练模型普遍使用FP32（单精度浮点数）或FP16（半精度浮点数）进行计算。以英伟达H100为例，其FP32算力为67 TFLOPS，FP16算力高达1979 TFLOPS（约2 PFLOPS）。

OPS（Operations Per Second）

中文：每秒操作次数。

与FLOPS不同，OPS不区分整数还是浮点数，是一个更广义的单位。在AI推理（Inference）场景中，由于大量使用整数运算（INT8、INT4），业界通常用 TOPS（Tera Operations Per Second，每秒万亿次操作）来衡量推理算力。

一个芯片通常同时标两个数字：

训练算力用TFLOPS（浮点）
推理算力用TOPS（整数）

二者不能直接换算，因为浮点运算比整数运算更复杂。同一芯片的INT8 TOPS通常是FP16 TFLOPS的2-4倍。

二、精度前缀：FP32、FP16、INT8、INT4……数字越小越快

AI芯片支持不同精度的计算，精度越高越准确，但速度越慢、功耗越大；精度越低速度越快、功耗越低。这就好比用高精度电子秤和普通台秤称东西，电子秤准但慢，台秤快但可能差几克。以下是常见精度级别：

FP32（单精度浮点，32位）

用途：传统科学计算、AI模型训练早期。
算力参考：中端AI芯片约20-100 TFLOPS。
特点：准确但慢，能耗高。
适用场景：科研计算、物理模拟等需要高精度的科学计算任务。

FP16（半精度浮点，16位）

用途：当前AI训练的主流精度。
算力参考：通常是FP32的2-4倍。
特点：精度够用且速度快，大部分大模型训练都跑在FP16上。

BF16（Brain Floating Point，16位）

用途：谷歌、英伟达等力推的格式。
特点：与FP16位数相同，但动态范围与FP32相同（只是精度降低），在大模型训练中更稳定。
算力参考：与FP16算力相近，部分芯片略高。

INT8（8位整数）

用途：AI推理（即模型训练好后的实际使用）。
算力参考：通常是FP16的2-4倍。
特点：精度损失可接受（通常<1%），速度和功耗优势明显。

INT4（4位整数）

用途：边缘设备、端侧AI（手机、耳机、智能家居）。
算力参考：INT8的2倍左右。
特点：速度最快、功耗最低，适合内存带宽有限、对响应速度要求极高的设备端推理。

三、MACs：衡量模型大小的常用单位

MACs（Multiply-Accumulate Operations）：乘加运算次数。

AI模型中的核心运算是“矩阵乘法”——把两个矩阵的元素相乘后相加。每一次乘加算一次MAC。1个MAC等于2次操作（一次乘、一次加），但通常不换算成OPS。模型大小常用MACs或参数量（Parameters）来表示，例如ResNet-50约3.8G MACs，GPT-3约175B参数量。

在芯片选型中，参数量（Params） 通常用来描述模型存储大小，MACs用来衡量计算量需求。一款芯片的算力（TFLOPS/TOPS）必须大于模型的计算需求，才能流畅运行。

四、实际芯片算力参考（2026年主流产品）

芯片型号	架构	训练算力（FP16）	推理算力（INT8）	主要应用
英伟达 H100	Hopper	1979 TFLOPS	3958 TOPS	大模型训练
英伟达 L40S	Ada	733 TFLOPS	1466 TOPS	云端推理/渲染
英伟达 A100	Ampere	312 TFLOPS	624 TOPS	通用AI训练/推理
英伟达 L4	Ada	121 TFLOPS	242 TOPS	边缘推理
华为昇腾910B	Da Vinci	320 TFLOPS（FP16）	640 TOPS	国产大模型训练
AMD MI300X	CDNA 3	1300 TFLOPS（FP16）	2600 TOPS	云端训练/推理
Google TPU v6e（Trillium）	—	约900 TFLOPS（BF16）	—	云推理/训练
Intel Gaudi 3	—	约900 TFLOPS（BF16）	—	云端训练/推理
高通骁龙X Elite	Hexagon NPU	—	45 TOPS	PC端AI（Copilot+）
苹果M4 NPU	16核	—	38 TOPS	iPad/Mac端侧AI
瑞芯微RK3588	三核NPU	—	6 TOPS	边缘设备（工业/IPC）
联发科天玑9300+	APU 790	—	10 TOPS	手机端侧AI
高通骁龙8 Gen 4	Hexagon NPU	—	22 TOPS	手机端侧AI
Intel Lunar Lake NPU	第四代NPU	—	48 TOPS	AI PC（Copilot+）

五、选购芯片到底看哪个算力指标？

你的需求	主要看哪个算力指标	次要指标	举例
云端训练大模型（LLM）	FP16 / BF16 TFLOPS	显存带宽（GB/s）	H100：1979 TFLOPS（FP16）
云端推理（高精度）	FP16 / FP32 TFLOPS	推理延迟	根据业务需求估算
云端推理（性价比）	INT8 TOPS	吞吐量（请求/秒）	L40S：1466 TOPS
端侧AI（PC/手机）	INT8 / INT4 TOPS	能效比（TOPS/W）	骁龙X Elite：45 TOPS
边缘设备（工业/摄像头）	INT8 TOPS	功耗（瓦特）	RK3588：6 TOPS
嵌入式/物联网	INT4 TOPS	内存带宽	—

六、常见误区

误区1：TOPS越高芯片越好

TOPS高不等于实际推理速度快。影响推理速度的因素包括：内存带宽（能否快速“喂”数据给计算单元）、算子库优化程度、功耗墙（是否因过热降频）。有的芯片标注TOPS很高，但实测速度反而不如低TOPS产品。

误区2：把FP16算力和INT8算力直接对比

有些营销材料刻意模糊精度，混淆FP16和INT8的算力数据。选型前要确认你关注的精度是否与供应商给出的算力单位一致，同时留意是否存在其他影响实际性能的因素。

误区3：只看峰值算力不看持续算力

很多芯片宣传“峰值算力”是在实验室特定条件下测得的，实际部署时受散热、功耗、内存带宽限制，持续算力往往只有峰值的一半。所以实测远比标称重要。

误区4：过于关注算力指标，忽略能耗

在边缘部署中，功耗比算力更关键。一个100TOPS但100W的芯片，在工业现场可能因为散热问题根本无法使用。50TOPS但15W的芯片反而更合适。

七、选芯片不是“看谁数字大”

AI芯片的算力单位体系复杂，FP16、INT8、TOPS、TFLOPS各有各的用途。选芯片，先确认你的使用场景：如果是训练模型，盯着FP16/BF16 TFLOPS和显存带宽；如果是端侧推理（手机/PC/边缘设备），盯着INT8 TOPS和能效比；如果是服务器推理，除INT8 TOPS外还要看吞吐量和延迟数据。

最重要的是，不要只看厂商的宣传册，尽量用你自己的模型在目标芯片上做实测。因为算力数字是“理论最高值”，真实世界里的功耗墙、散热限制、内存瓶颈，往往比算力本身更能决定芯片的实际表现。

上一篇：企业内网AI部署：Tokenizer分词整机预置与工厂批发指南

下一篇：AI芯片的内存带宽和能效比是什么意思？为什么比算力更关键？